JOPSS:検索結果一覧

検索結果：　2 件中 1件目～2件目を表示

発表形式

Initialising ...

選択項目を絞り込む

掲載資料名

Initialising ...

発表会議名

Initialising ...

筆頭著者名

Initialising ...

キーワード

Initialising ...

使用言語

Initialising ...

発行年

Initialising ...

開催年

Initialising ...

口頭

局所細分化格子ボルツマン法におけるGPU間相互接続技術を活用した高速化手法の検討

長谷川雄太; 小野寺直幸; 井戸村泰宏

no journal, ,

局所細分化格子ボルツマン法の計算コードにおけるメモリ使用量削減および通信高速化を目的として、CUDAのUnified memoryを用いたノード内複数GPU実装を試行した。等間隔格子を用いたマイクロベンチマークテストでは、3次元拡散方程式において弱スケーリング96.4%および強スケーリング94.6%の並列化効率、ならびに、D3Q27格子ボルツマン法において弱スケーリング99.3%および強スケーリング56.5%の並列化効率を得た。局所細分化格子ボルツマン法においては、Flat MPI実装に比べてメモリ使用量を25.5%削減したが、並列化効率が9.0%と極めて低くなった。

口頭

Enhancing intra-node Multi-GPU stencil calculations on DGX-2 using concurrent-addressing with Unified Memory

長谷川雄太; 小野寺直幸; 井戸村泰宏

no journal, ,

原子力機構におけるCityLBMプロジェクトでは、AMR(Adaptive mesh refinement; 適合細分化格子法)に基づく実時間都市風況予測コードの開発を行ってきた。次世代のCityLBMコードにおいては、予測の信頼性を向上するためにアンサンブル計算の導入が求められている。このためには、メモリ使用量を1つの計算あたり1ノードないし416GPUの規模に抑える必要がある。本研究では、AMRコードにおけるメモリ使用量の削減およびデータ通信の高速化を目的として、CUDAのUnified Memoryを用いたイントラノード複数GPU計算の実装を試行した。Unified MemoryへのアクセスがHBM2(同一GPU)またはNVLink(隣接GPU)から自動的に判別されるため、比較的簡便に複数GPU計算を実装することができる。等間隔格子上で3次元拡散方程式および格子ボルツマン法の複数GPU計算コードを実装し、弱スケーリングおよび強スケーリングを測定することでNVLinkの性能テストを行った。